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Розрішення анафор: сучасні алгоритми 


У статті розглядаються алгоритми розрішення займенникових анафор. Наводиться порівняльний 
аналіз розглянутих алгоритмів та продемонстровано їх роботу на конкретному прикладі. До розгляду 
взяті наступні алгоритми: Лапіна 1 Ліса, Хобса, центруючий та Міткова. 


Вступ 


Розрішення анафор залишається актуальною задачею комп'ютерної лінгвістики. 
Дослідники в цій сфері звітують про те, що розроблені ними алгоритми дозволяють 
знаходити антецеденти для займенників з 8690-ю і більше точністю |1 |. Ця точність 
хоча і є високою, але не є достатньою, особливо зважаючи на те, що дослідження 
проводяться на тематичних корпусах текстів, зі спрощеною, офіційною, мовою. 

У даному документі розглянуто на прикладі деякі найбільш відомі та визнані ме- 
тоди визначення антецедентів для займенникових анафор. Цей вид анафор є найбільш 
простим та дослідженим, тим не менше приклади є досить демонстративними. 

Метою даної роботи є огляд сучасних методів розрішення займенникових анафор 
та розгляд їх на конкретному прикладі. 


Алгоритм Лапіна і Ліса 


Алгоритм використовує просту схему оцінки, яка задіює фактори близькості і 
граматичної ролі; семантичні фактори не враховуються, окрім тих, що задіюються 
при узгодженні. Кожна іменна група оцінюється за такими критеріями: близькість ре- 
чення (100), підметниковий наголос (80), наголос існування (70), пряме доповнення (50), 
непряме доповнення (40), відмежена обставина (50), головний іменник (30). В дуж- 
ках вказано кількість балів, які нараховуються відповідному можливому антецеденту. 

Приклад 

І.езуа Тоипд 5о0те Пах їп а 8їоге. 5Бе 5ат4 їБаї іо Оа. 5рПе Ббопебі її. (5) 

Знаходимо можливі референти та їхні оцінки для першого речення. 


Таблиця 1 
Кес | 5ибі Ехізі Обі ша-Обі Моп-Аду | Неад М | Тоїаї 
Ігзуа | 100 80 50 80 310 
Пах 100 50 80 280 
зюге | 100 80 230 


В цьому реченні немає займенників, тому ми переходимо до обробки наступно- 
го речення (табл. 2). 


Таблиця 2 
Референт Фрази Оцінка 
І сзуа 1 І езуа ) 155 
Пах Ї зоте ех ) 140 
5їоге ТГ а 510ге ) 115 


«Штучний інтелект» 4"2010 113 


л Лупійчук Р.І. 


Колонка «фрази» містить клас еквівалентності, що містить посилання на референта. 

Перша іменна група в другому реченні є займенник 5/е. Так як 5йе жіночого 
роду, на другому кроці кількість можливих референтів зменшується до одного Іезуа, 
тому ми просто приймаємо його як референта. 

Тепер необхідно оновити модель тексту. Насамперед, необхідно додати займен- 
ник 5/е в клас еквівалентності Іезуа, а потім змінити оцінку. Так як 5/ле знаходиться 
в поточному реченні, а Іезуа в попередньому, то оцінку непотрібно ділити навпіл. 
Порахуємо оцінку для 5Ле: він знаходиться в поточному реченні (- 100), є підметом 
(- 80), не є допоміжним (адуегіла!) (- 50), не є вбудованим (епбеддеад) (- 80), таким 
чином до оцінки І езуа треба додати 310. В результаті отримаємо: 


Таблиця 3 
Референт Фрази Оцінка 
І езуа 1 Іезуа, 5пе| ) 465 
Пах Ї зоте Лех ) 140 
зіоге 1 а 5ї0ге ) 115 


Наступна іменна група є О/а, яка є новим референтом. Для неї оцінка буде 
наступна: 100 - 40 - 50-80 - 270. 


Таблиця 4 
Референт Фрази Оцінка 
І езуа 1 Іезуа, 5йе| ) 465 
Оіа ГО а) 270 
Пах Ї оте Пех ) 140 
зіоге 1 а 5ї0ге ) 115 


Переходимо до останнього речення. Знову зменшуємо оцінку вдвічі. 


Таблиця 5 
Референт Фрази Оцінка 
І езуа 1 Іезуа, 5пе| ) 232,5 
Оа 1 Оа ) 135 
Пах Ї зоте Тех ) 70 
5оге 1 а 5ї0ге ) 575 


Таким самим чином переконуємось, що для 5пе референтом буде Іезуа, а для її 
референтом буде Пах. 


Алгоритм Хобса 


В алгоритмі використовуються синтаксичні представлення речень, які вважаються 
даними. На відміну від алгоритму Лапіна і Ліса цей алгоритм не передбачає наявності 
моделі чи налаштувань дискурсу, хоча деякі налаштування враховуються способом 
обходу синтаксичних дерев. 

Алгоритм 

1. Починаємо з іменної групи (МР), яка містить займенник. 

2. Піднімаємось по дереву до першої МР або речення (5). Назвемо цей вузол Х і 
назвемо шлях до нього р. 
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3. Обходимо зліва-на-право, в ширину, усі гілки, що знаходяться нижче Х та 
лівіше р. Візьмемо за антецедент будь-яку МР, що має вузол ХР або 5 між ниміХ. 

4. Якщо вузол Х є найвищим 5 в реченні, то обійти дерева попередніх речень в 
порядку їх появи, кожне дерево обходимо зліва-на-право, в ширину. Приймемо анте- 
цедентом перший ХР вузол, що трапиться. Якщо Х не є найвищим 5 вузлом, пере- 
ходимо до кроку 5. 

5. Переходимо вверх від вузла Х, до першого КР або 5 вузла, що зустрінеться. 
Назвемо цей новий вузол Х, а шлях до нього назвемо р. 

6. Якщо Х є КР вузлом 1 шлях р до Х не проходить через іменну групу, в яку Х 
безпосередньо входить, прийняти Х антецедентом. 

7. Обійти усі гілки нижче та лівіше вузла Х, зліва-на-право, в ширину. Запропону- 
вати будь-який МР вузол, що зустрінеться, як антецедент. 

8. Якщо Х є 5 вузлом, обійти усі гілки вузла Х, зліва-на-право, в ширину, але 
не обходити підгілки МР та 5 вузлів, що будуть зустрічатися. Запропонувати будь- 
який КР вузол як антецедент. 

9. Перейти до кроку 4 |2). 

Розглянемо, як працює алгоритм Хобса, на прикладі (7). 

Приклад 


м Тоцпаі МР РР 5пе заїд Чаї Р Р 
Тезуа 50те ах іп МР ме 


ці, м 5пе || Боцдіі 


а 5їоге 


Рисунок 1 - Синтаксичне дерево для прикладу (") 


Знайдемо антецедент для займенника її в останньому реченні. Відповідно до кро- 
ку 2 піднімаємося вище по дереву до 5, так як інших вузлів МР немає. Переконуємось, 
що немає вузлів МР, розміщених нижче 5 та лівіше від шляху, таких, що містять 
вузол МР між ними та 5. Далі згідно з кроком 4 обходимо друге речення зліва-на- 
право, в ширину, 1 не зустрічаємо жодного МР, який узгоджується з її, тому перехо- 
димо до першого речення. Обходячи таким самим чином, приймаємо антецедентом 
для її іменну групу ах. 


Центруючий алгоритм 


Центруючий алгоритм, як 1 алгоритм Лапіна і Ліса, має чітку модель дискурсу, 
але намагається дати відповідь на додаткове питання: на чому одному «сконцент- 
рований» дискурс в кожен конкретний момент. 

Є два основних поняття, що використовуються в моделі дискурсу. Нехай Г/, 1 
Сол - два послідовні вирази. Зворотний центр (БасКууага Іоокіпє сепіег) М, позна- 
чається С((/), відображає сутність, на якій зосереджений дискурс, після того, як (/, 
було інтерпретовано. Прямі центри (Богугага ІооКіпе сепіег5) (/,, позначаються С (Л), 
утворюють упорядкований список сутностей, згаданих в (/, які можуть послужити як 
Сь для наступного виразу. Фактично СС.) Є за означенням елемент з С СЛ.) З най- 
більшою оцінкою, згаданий в (/, 1. 
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Робота алгоритму базується на відношенні Сь((Лчт), СЬО), С( Сл), 1 показана 


в табл. 6. 
Таблиця 6 
СОУСОМ) 
ог ипдейнед СГ) СкООані) яв СЬКОГ) 
СКС УЄС Он) Продовжити Гладкий зсув (з птіоо 0-51) 
СОС) я С (Ст) Зберегти Брудний зсув (Коцер-5Рр1б)) 


Правила, що діють в алгоритмі: 

1. Правило 1: Якщо будь-який елемент С СЛ) поданий як займенник в реченні 
Слона, Тоді СЬО) має бути поданий займенником також. 

2. Правило 2: Стани переходів впорядковані в наступному порядку: продовжити, 
зберегти, гладкий зсув, брудний зсув. 

Алгоритм 

1. Згенерувати можливі комбінації Сь-- Судля кожного можливого набору антеце- 
дентів. 

2. Відкинути ті, що не задовольняють обмеженням: синтаксичним, вибірковим, 
центруючим правилам і обмеженням. 

3. Впорядкувати за перехідними відношеннями. 

Приклад 

І.езуа Тоцпд 5о0те Пах іп а 8їоге. (Л) 

Зре заїд їБаг о Оа. (0/.) 

Зре Боцебі її. (0/3) 

Використовуючи граматичну ієрархію для впорядкування С; для речення (Л 
отримаємо: 

САС): (1 езуа, бах, 5їоге) 

СЛ): Іезуа 

ССО): апдейпава 

Речення (/. містить займенник УЛе. Він може бути зіставлений тільки з І.е5уа, че- 
рез обмеження за родом. І езуа є за означенням С((/), так як має найбільшу оцінку се- 
ред елементів С (Л), згаданих в (/. 

СО»): (1. езуа, О!а) 

СО): Іезуа 

СЬО»): І евуа 

Переходимо до речення (Д. 

СО з): (1.е8уа, її) 

С Оз): І езуа 

СЬКОЗ): І евуа 

Результат: Продовжити (С,(03)-СЬКОЗ)-С5( 075) 

СО): 1О1а, її) 

СО): Оіа 

СЬО): І езуа 

Результат: Зберегти (С,(Ц/3) я СЬКОЗ)-СЬ( 07) 

Так як результат «Продовжити» є більш пріоритетним, ніж «Зберегти» за пра- 
вилом 2 І,е5уа приймається антецедентом. 


Алгоритм Міткова 


Алгоритм Міткова дуже схожий на алгоритм Лапіна і Ліса. Схема роботи алгоритму 
така ж, але можливі кандидати в антецеденти оцінюються за кожним з критеріїв по шкалі 
від - І до 2, самі критерії також відрізняються. Варто відмітити, що в даному алгоритмі 
антецедентом може бути обраний займенник, що дещо розширює можливості алгоритму. 
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Таблиця 7 - Критерії, що використовуються в алгоритмі Міткова 


Критерій Кількість очок 
Синтаксичний паралелізм (Зупіасііс РагаПепят) 1 
Повторюваність кандидата (Егедцепі Сапаїдаіе8) 1 
Схоже положення (СоПосайоп Макр) 2 
Підмет (Зифбіесі Воїе) 2 
Доповнення (Обіесі Коїе) 1 
Граматична роль не визначенна -1 
Часте згадування (Тег Ргеїегепсе) 1 


Повторюваність кандидата: цей індикатор надає додаткові очки (--1) трьом най- 
більш частим можливим кандидатам в антецеденти. 

Схоже положення: цей індикатор додає "2, якщо займенник і можливий антеце- 
дент зустрічались в однакових контекстах в сенсі дієслова, що поряд. 

Часте згадування: обирається 10 значущих слів, що мають найбільше ТЕ.ПЕ. Усі 
антецеденти, в які входить принаймні одне з обраних слів, отримують додатковий бонус. 

Покроковий алгоритм практично такий самий, як і у Лапіна та Ліса, за відмін- 
ністю того, що не враховуються очки, набрані в попередніх реченнях. Тобто для займен- 
никової анафори виділяються можливі антецеденти, фільтруються за синтаксичними 
обмеженнями, потім оцінюються за кожним з критеріїв, оцінки сумуються, та обирається 
найближчий кандидат з максимальною оцінкою. 


Висновки 


Було розглянуто на конкретному прикладі деякі методи розрішення займен- 
никових анафор. До розгляду ввійшло 4 методи: Лапіна і Ліса, Хобса, центруючий та 
Міткова. Деякі алгоритми, такі як центруючий алгоритм та Міткова, багато в чому 
повторюють метод Лапіна 1 Ліса. 

Усі алгоритми знаходження антецедента так чи інакше враховують деякі обме- 
ження, що накладаються на можливих кандидатів, такі як: узгодженість в числі (питЬег 
асгеетегі), особі (рег5оп астеетепі), відмінку (са5е асгеетепі), роді (єепдаег артестепі); 
синтаксичні обмеження та локальні семантичні обмеження. 

Алгоритм Лапіна 1 Ліса та Міткова працюють методом зважування кожного з анте- 
цедентів за переліком критеріїв, деякі з них контекстні, але більшість чисто синтак- 
сичні. Алгоритм Хобса працює за допомогою правил обходу синтаксичного дерева 
тексту. Центруючий алгоритм оснований на ідеї, що в будь-який момент в тексті є те, на 
чому зосереджена увага, таким чином потрібно тільки постійно слідкувати за змі- 
нами акцентів у тексті. 
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